Lecture 9

上一节课我们引入了一个新的概念:mixed strategies。这也是接下来几节课的重点。

表示使用每一个策略的概率

  • 表示对于pure strategy 的概率是
  • 可以是0,例如(0.5, 0.5, 0); 也可以是1,这个时候表示pure strategy.也就是说我们之前所有的博弈策略都是它的子集。

payoffs from the mixed strategy:

The expected payoff of the mixed strategy 就是期望。

计算混合策略的期望例子

a b A, B选择的概率
A 2, 1 0, 0
B 0, 0 1, 2
a, b选择的概率

因此玩家1的mixed strategy p = (1/5, 4/5)

玩家2的mixed strategy q = (1/2, 1/2)。

那么如何计算p的payoffs呢?

分成两部,首先计算pure strategy的期望,然后计算混合期望:

  1. 计算混合期望:

如何混合策略是最佳对策,那么混合策略中的每一个pure strategy 也必须是最佳对策。也就是说,每一个都必须产生相同的payoffs。

解释:如果有一个pure strategy不是最佳对策,那么就会拉低其他的平均期望。

定义:A mixed strategy profile 在NE 当且仅当对每一个i,都是最佳对策。

网球比赛

l r L, R选择的概率
L 50, 50 80, 20 p
R 90, 10 20, 80 1-p
l, r选择的概率 q 1-q

找到纳什均衡点,那么玩家1的两个pure strategy的期望必须相等!

令两者相等(也就是对于任意一种pure strategy,它们的payoffs必须相等):

, 得到

同理可以求得p = 0.7

因此

如果发现玩家2打左边的概率大于0.6,那么玩家1应该往右打,这样可以增加得分的概率。(可以通过计算获得)

证明上面状态是纳什均衡点

我们将上面的概率带入:

玩家1的payoffs: L -> 50*0.6+80*0.4 = 0.62

R -> 0.62

因此mixed strategy payoffs = 0.62*0.7+0.62*0.3 = 0.62

我们改变(p, 1-p),发现无论怎么改变,总期望的收益都是不变的,因此没有严格大于其期望的策略,使得它能够大于0.62。

微小扰动

现在玩家2请了教练,增加了自己左手的能力,新的收益矩阵如下:

l r L, R选择的概率
L 30, 70 80, 20 p
R 90, 10 20, 80 1-p
l, r选择的概率 q 1-q

通过计算,p,q都会下降,这表明大家都会更多的通过右手进行比赛。

mixed strategy examples

  • 足球射门
  • 911后安检仪数量不足,机场放安检仪:他们就是随机进行检查。

results matching ""

    No results matching ""